The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
与常规知识蒸馏(KD)不同,自我KD允许网络在没有额外网络的任何指导的情况下向自身学习知识。本文提议从图像混合物(Mixskd)执行自我KD,将这两种技术集成到统一的框架中。 Mixskd相互蒸馏以图形和概率分布在随机的原始图像和它们的混合图像之间以有意义的方式。因此,它通过对混合图像进行监督信号进行建模来指导网络学习跨图像知识。此外,我们通过汇总多阶段功能图来构建一个自学老师网络,以提供软标签以监督骨干分类器,从而进一步提高自我增强的功效。图像分类和转移学习到对象检测和语义分割的实验表明,混合物KD优于其他最先进的自我KD和数据增强方法。该代码可在https://github.com/winycg/self-kd-lib上找到。
translated by 谷歌翻译
本文着重于通过分散网络的在线内核学习。网络中的每个代理都会在本地接收连续流数据,并协同工作以学习一个非线性预测函数,该功能在复制的内核希尔伯特空间中相对于所有代理的总瞬时成本而言是最佳的。为了规避传统在线内核学习中维度问题的诅咒,我们利用随机功能(RF)映射将非参数内核学习问题转换为RF空间中的固定长度参数。然后,我们建议通过线性化ADMM(ODKLA)有效地解决在线分散的内核内核学习问题,提出一个名为在线分散内核学习的新颖学习框架。为了进一步提高沟通效率,我们在通信阶段添加了量化和审查策略,并开发了量化和通信的ODKLA(QC-ODKLA)算法。从理论上讲,我们证明了Odkla和Qc-odkla都可以在$ t $ time插槽上实现最佳的Sublinear后悔$ \ Mathcal {O}(\ sqrt {t})$。通过数值实验,我们评估了所提出方法的学习效率,沟通和计算效率。
translated by 谷歌翻译
动作理解已经演变成精细粒度的时代,因为现实生活中的大多数人类行为只有很小的差异。为了以标签有效的方式准确检测这些细粒度的动作,我们首次解决了视频中弱监督的细粒度临时动作检测问题。如果没有仔细的设计来捕获细粒度的动作之间的细微差异,先前的一般动作检测模型在细粒度的环境中不能很好地表现。我们建议将动作建模为可重复使用的原子动作的组合,这些动作是通过自我监督聚类自动从数据中自动发现的,以捕获细颗粒动作的共同点和个性。以视觉概念为代表的学识渊博的原子动作进一步映射到利用语义标签层次结构的细细作用标签。我们的方法构建了四个级别的视觉表示层次结构:剪辑级别,原子动作级别,精细动作类别和粗糙的动作类别水平,并在每个级别进行监督。对两个大规模细颗粒视频数据集(Fineaction和FineGym)进行了广泛的实验,显示了我们提出的弱监督模型的好处,以实现细粒度的动作检测,并实现了最先进的结果。
translated by 谷歌翻译
我们研究了人类视觉系统(HVS)〜-〜形状,纹理和颜色〜-〜对对象分类的三个重要特征的贡献。我们构建了人形视觉引擎(HVE),该引擎明确和单独计算图像中的形状,纹理和颜色特征。然后将所得的特征向量连接以支持最终分类。我们表明,HVE可以总结和排序排序对对象识别的三个功能的贡献。我们使用人类实验来确认HVE和人类主要使用一些特定特征来支持特定类别的分类(例如,纹理是将斑马与其他四足动物区分开的主要特征,包括人类和HVE)。借助HVE的帮助,给定任何环境(数据集),我们可以总结整个任务的最重要功能(特定于任务的; (特定于类;为了证明HVE的更有用,我们使用它来模拟没有属性标签的人类的开放世界零射击学习能力。最后,我们表明HVE还可以通过不同特征的组合来模拟人类的想象力。我们将开源HVE引擎和相应的数据集。
translated by 谷歌翻译
本文研究了从深度摄像机读数中构建平面区域的多重代表的问题。这个问题对于复杂环境中的地形映射非常重要,并且在腿部运动应用中具有巨大的潜力。为了解决多重平面区域的表征问题,我们提出了一个两阶段的解决方案方案。在第一阶段,嵌入深度图像序列中的平面区域首先单独提取,然后合并以建立一个仅包含所选框架中平面区域的地形图。为了简化适用于腿部机器人立足计划的平面区域的表示,我们在第二阶段通过低维度的多面体进一步近似提取的平面区域。借助多重代表,所提出的方法在准确性和简单性之间取得了巨大的平衡。对RGB-D相机进行了实验验证,以证明所提出的方案的性能。所提出的方案成功地通过多面体以可接受的精度来表征平面区域。更重要的是,在整个测试中,整体感知方案的运行时间小于10ms(即> 100Hz),这强烈说明了本文中我们发展的方法的优势。
translated by 谷歌翻译
无标记的单眼3D人类运动捕获(MOCAP)与场景相互作用是一个充满挑战的研究主题,与扩展现实,机器人技术和虚拟头像生成有关。由于单眼环境的固有深度歧义,使用现有方法捕获的3D运动通常包含严重的人工制品,例如不正确的身体场景互穿,抖动和身体漂浮。为了解决这些问题,我们提出了HULC,这是一种新的3D人类MOCAP方法,它知道场景几何形状。 HULC估计3D姿势和密集的身体环境表面接触,以改善3D定位以及受试者的绝对尺度。此外,我们基于新的姿势歧管采样,引入了3D姿势轨迹优化,该采样解决了错误的身体环境互穿。尽管所提出的方法与现有场景感知的单眼MOCAP算法相比需要较少的结构化输入,但它会产生更加可行的姿势:HULC显着且一致地在各种实验和不同指标上都优于现有方法。项目页面:https://vcai.mpi-inf.mpg.de/projects/hulc/。
translated by 谷歌翻译
由于极大数量的参数和评估标准和再现性,机器学习长期以来被视为黑盒子,用于预测燃烧化学动力学和缺乏评估标准和再现性。目前的工作旨在了解关于深度神经网络(DNN)方法的两个基本问题:DNN需要的数据以及DNN方法的一般数据。采样和预处理确定DNN训练数据集,进一步影响DNN预测能力。目前的工作建议使用Box-Cox转换(BCT)来预处理燃烧数据。此外,这项工作比较了在没有预处理的情况下进行了不同的采样方法,包括蒙特卡罗方法,歧管采样,生成神经网络方法(Cycle-GaN)和新提出的多尺度采样。我们的研究结果表明,通过歧管数据训练的DNN可以以有限的配置捕获化学动力学,但不能对扰动牢固,这对于与流场联系的DNN是不可避免的。蒙特卡罗和循环甘套采样可以覆盖更宽的相位空间,但不能捕获小规模的中间物种,产生差的预测结果。基于没有特定火焰仿真数据的多尺度方法的三层DNN,允许在各种场景中预测化学动力学并在时间的演变期间保持稳定。该单个DNN易于用几个CFD代码实现并在各种燃烧器中验证,包括(1)。零维自动化,(2)。一维自由传播火焰,(3)。具有三重火焰结构的二维喷射火焰,和(4)。三维湍流升降火焰。结果证明了预先训练的DNN的令人满意的准确性和泛化能力。 DNN和示例代码的FORTRAN和PYTHON版本在补充中附加了再现性。
translated by 谷歌翻译
随着智能机器人的广泛渗透,在多种领域,机器人中的同时定位和映射(SLAM)技术在社区中引起了不断的关注。然而,由于机器人的密集图形计算和机器人的有限计算能力之间的性能矛盾,在多个机器人上的合作仍然仍然具有挑战性。虽然传统的解决方案来到功能作为外部计算提供商的强大云服务器,但我们通过实际测量显示数据卸载中的显着通信开销可以防止其实际部署。为了解决这些挑战,本文将新兴边缘计算范例促进到多机器人SLAM中,提出了一种多机器人激光器SLAM系统,该系统专注于在机器人边缘云架构下加速映射施工过程。与传统的多机器人SLAM相比,在机器人上生成图形地图并完全合并它们在云上,recslam开发了一个分层地图融合技术,将机器人的原始数据指向用于实时融合的边缘服务器,然后发送到云端全球合并。为了优化整体管道,引入了一种有效的多机器人SLAM协作处理框架,以便自适应地优化针对异构边缘资源条件的机器人到边缘卸载,同时确保边缘服务器之间的工作量平衡。广泛的评估表明康复伍列可以通过最先进的延迟减少达到39%的处理延迟。此外,在真实场景中开发并部署了概念验证原型,以展示其有效性。
translated by 谷歌翻译
我们专注于可控的解除不应表示学习学习(C-DIS-RL),用户可以控制解剖潜在空间的分区,以将DataSet属性(概念)分解为下游任务。目前的方法仍然探讨了两个普遍的问题:(1)他们缺乏全面的解剖约束,特别是在潜在和观察域之间的不同属性之间的相互信息最小化。 (2)他们缺乏解开的潜在空间中的凸起限制,这对于有意义地操纵下游任务的特定属性是重要的。为了同时鼓励全面的C-DIS-RL和凸性,我们提出了一种简单而有效的方法:可控插值正规化(CIR),它创造了一个积极的循环,其中解剖和凸起可以互相帮助。具体而言,我们在训练期间对潜伏空间进行受控插值,并重新利用“编码器”以帮助形成“完美解剖”正规化。在这种情况下,(a)解剖损失隐含地扩大了促使凸起的潜在的“可理解”分配; (b)凸起又可以改善强大和精确的解剖学。 CIR是一般模块,我们将CIR与三种不同的算法合并:优雅,I2I-DIS和GZS-Net,以展示兼容性和有效性。定性和定量实验表明C-DIS-RL和CIR潜在凸起的改善。这进一步改善了下游任务:可控图像合成,跨型图像转换和零射合成。更多实验展示CIR还可以改善其他下游任务,例如新的属性值挖掘,数据增强和消除公平的偏差。
translated by 谷歌翻译